Das quelloffene, kostenlose FluidVoice ermöglicht Diktate in fast jedes Programm und das Transkribieren von Audiodateien basierend auf dem Nvidia-Spracherkennungsmodell Parakeet TDT v3 (Apple-Silicon-Macs) bzw. OpenAI Whisper (Intel-Macs). Nun hat der Entwickler Prachi Modi die Version 1.5.11 angekündigt, die als wichtigste Neuerung das Open-Source-Spracherkennungsmodell Cohere Transcribe integriert.
Modi teilte zu Cohere-Transcribe-Integration mit: "Etwas langsamer als Parakeet, aber sehr präzise. Die aktuelle Version kann 40 Minuten Audio- oder Videomaterial in etwa einer Minute transkribieren. Unterstützt 14 Sprachen: Europäische Sprachen: Englisch, Französisch, Deutsch, Italienisch, Spanisch, Portugiesisch, Griechisch, Niederländisch, Polnisch; Chinesisch (Mandarin), Japanisch, Koreanisch, Vietnamesisch."
Cohere Transcribe wurde vor kurzem bereitgestellt, Einzelheiten erläutert der kanadische Hersteller auf dieser Web-Seite. FluidVoice 1.5.11 mit der Cohere-Transcribe-Integration liegt als Betaversion vor. Die Modelle Parakeet und OpenAI Whisper stehen weiter zur Verfügung, Cohere Transcribe ist eine zusätzliche Option.
Das ab macOS Monterey 12 lauffähige FluidVoice arbeitet vollständig lokal und offline. Die Versionsanmerkungen mit allen Änderungen sind, mitsamt Downloads und Quellcode, auf GitHub zu finden. Auch Apples Spracherkennungsmodell (benötigt macOS Tahoe 26) wird unterstützt.

Bild: Prachi Modi.
"Auf Apple Silicon Macs nutzt FluidVoice CoreML für die Beschleunigung neuronaler Netzwerke und Metal für GPU-Computing. Dies ermöglicht eine Transkription mit extrem geringer Latenz (unter 100 ms), minimalem Batterieverbrauch und Echtzeitverarbeitung ohne Cloud-Abhängigkeit", erläutert der Autor. Es handelt sich dabei um ein junges Projekt, das erst im vergangenen Herbst startete.
FluidVoice bietet eine optionale KI-Nachbearbeitung, ermöglicht auch das Steuern des Rechners und lässt sich über ein anpassbares Tastaturkürzel global aufrufen, außerdem steht ein systemweites Menü zur Verfügung. Es werden mehr als 25 Sprachen unterstützt, wie zum Beispiel Chinesisch, Deutsch, Englisch, Französisch, Italienisch, Japanisch, Portugiesisch und Spanisch. Anwender können via GitHub wie gewohnt Problemberichte und Verbesserungsvorschläge für FluidVoice veröffentlichen.
"Fluid ist für immer völlig kostenlos, ohne Abonnementgebühren. Im Gegensatz zu anderen Sprach-zu-Text-Apps, die monatliche Gebühren erheben, verarbeitet Fluid alles lokal auf Ihrem Mac, ohne dass laufende Kosten anfallen. Fluid verarbeitet alle Spracherkennungen lokal auf Ihrem Mac mithilfe des Parakeet-Modells von Nvidia. Es ist keine Internetverbindung erforderlich, sodass auch ohne WLAN vollständige Privatsphäre und Zuverlässigkeit gewährleistet sind", so der Entwickler weiter.
